In this paper, we address the problem of image splicing localization with a multi-stream network architecture that processes the raw RGB image in parallel with other handcrafted forensic signals. Unlike previous methods that either use only the RGB images or stack several signals in a channel-wise manner, we propose an encoder-decoder architecture that consists of multiple encoder streams. Each stream is fed with either the tampered image or handcrafted signals and processes them separately to capture relevant information from each one independently. Finally, the extracted features from the multiple streams are fused in the bottleneck of the architecture and propagated to the decoder network that generates the output localization map. We experiment with two handcrafted algorithms, i.e., DCT and Splicebuster. Our proposed approach is benchmarked on three public forensics datasets, demonstrating competitive performance against several competing methods and achieving state-of-the-art results, e.g., 0.898 AUC on CASIA.
translated by 谷歌翻译
可靠的图像地理定位对于若干应用来说至关重要,从社交媒体地理标记到假新闻检测。最先进的地理定位方法超越了图像从图像的地理位置估算的任务。但是,没有方法评估图像的适用性,这导致不含地理位置线索的图像的不可靠和错误的估计。在本文中,我们定义了图像定位的任务,即地理位置图像的适用性,并提出了一种选择性预测方法来解决任务。特别是,我们提出了两个新颖的选择功能,利用地理定位模型的输出概率分布来推断出不同尺度的定位。我们的选择功能与最广泛使用的选择性预测基线进行基准测试,在所有情况下都表现优于它们。通过弃权预测不可定位的图像,我们将地理位置精度从城市规模提高到70.5%,从而使当前的地理位置模型可靠地对现实世界应用。
translated by 谷歌翻译
在本文中,我们解决了大型数据集中的高性能和基于计算有效的基于内容的视频检索问题。当前方法通常提出:(i)采用时空表示和相似性计算的细粒度方法,以高计算成本以高性能获得高性能,或(ii)代表/索引视频作为全球向量的粗粒粒度方法,其中时空 - 时间结构丢失,提供较低的性能,但计算成本也很低。在这项工作中,我们提出了一个知识蒸馏框架,称为Distill-Select(DNS),该框架从表现良好的细颗粒教师网络开始学习:a)具有不同检索性能和计算效率折衷和计算效率的学生网络b)在测试时间迅速将样本引导到合适的学生以保持高检索性能和高计算效率的选择网络。我们培训几个具有不同架构的学生,并得出不同的性能和效率的不同权衡,即速度和存储要求,包括使用二进制表示的精细颗粒学生。重要的是,提出的计划允许在大型,未标记的数据集中进行知识蒸馏 - 这导致了好学生。我们在三个不同的视频检索任务上评估了五个公共数据集的DNS,并证明a)我们的学生在几种情况下达到最先进的性能,b)b)DNS框架在检索性能,计算中提供了极好的权衡速度和存储空间。在特定的配置中,所提出的方法可以通过老师获得相似的地图,但要快20倍,需要减少240倍的存储空间。收集到的数据集和实施已公开可用:https://github.com/mever-team/distill-and-select。
translated by 谷歌翻译
In this paper, we introduce MINTIME, a video deepfake detection approach that captures spatial and temporal anomalies and handles instances of multiple people in the same video and variations in face sizes. Previous approaches disregard such information either by using simple a-posteriori aggregation schemes, i.e., average or max operation, or using only one identity for the inference, i.e., the largest one. On the contrary, the proposed approach builds on a Spatio-Temporal TimeSformer combined with a Convolutional Neural Network backbone to capture spatio-temporal anomalies from the face sequences of multiple identities depicted in a video. This is achieved through an Identity-aware Attention mechanism that attends to each face sequence independently based on a masking operation and facilitates video-level aggregation. In addition, two novel embeddings are employed: (i) the Temporal Coherent Positional Embedding that encodes each face sequence's temporal information and (ii) the Size Embedding that encodes the size of the faces as a ratio to the video frame size. These extensions allow our system to adapt particularly well in the wild by learning how to aggregate information of multiple identities, which is usually disregarded by other methods in the literature. It achieves state-of-the-art results on the ForgeryNet dataset with an improvement of up to 14% AUC in videos containing multiple people and demonstrates ample generalization capabilities in cross-forgery and cross-dataset settings. The code is publicly available at https://github.com/davide-coccomini/MINTIME-Multi-Identity-size-iNvariant-TIMEsformer-for-Video-Deepfake-Detection.
translated by 谷歌翻译
我们假设现有的句子级机器翻译(MT)指标在人类参考包含歧义时会效率降低。为了验证这一假设,我们提出了一种非常简单的方法,用于扩展预审计的指标以在文档级别合并上下文。我们将我们的方法应用于三个流行的指标,即Bertscore,Prism和Comet,以及无参考的公制Comet-QE。我们使用提供的MQM注释评估WMT 2021指标共享任务的扩展指标。我们的结果表明,扩展指标的表现在约85%的测试条件下优于其句子级别的级别,而在排除低质量人类参考的结果时。此外,我们表明我们的文档级扩展大大提高了其对话语现象任务的准确性,从而优于专用基线高达6.1%。我们的实验结果支持我们的初始假设,并表明对指标的简单扩展使他们能够利用上下文来解决参考中的歧义。
translated by 谷歌翻译
NLP研究的最新突破,例如变压器模型的出现,无疑促进了多项任务的重大进步。但是,很少有作品研究其评估策略的鲁棒性和解释性问题。在这项工作中,我们研究了高性能预训练的语言模型的行为,重点是视觉词汇的语义相似性。首先,我们满足了对可解释的评估指标的需求,这是理解检索实例的概念质量所必需的。我们提出的指标在地方和全球层面提供了宝贵的见解,展示了广泛使用方法的无能。其次,对显着查询语义的对抗性干预措施暴露了不透明指标的漏洞,并在学习的语言表示中突出了模式。
translated by 谷歌翻译
随着基于位置的越来越多的社交网络,隐私保存位置预测已成为帮助用户发现新的兴趣点(POI)的主要任务。传统系统考虑一种需要传输和收集用户私有数据的集中方法。在这项工作中,我们展示了FedPoirec,隐私保留了联合学习方法的隐私,增强了用户社交界的功能,以获得最高$ N $ POI建议。首先,FedPoirec框架建立在本地数据永远不会离开所有者设备的原则上,而本地更新盲目地由参数服务器汇总。其次,本地推荐人通过允许用户交换学习参数来获得个性化,从而实现朋友之间的知识传输。为此,我们提出了一种隐私保留协议,用于通过利用CKKS完全同态加密方案的特性来集成用户朋友在联合计算之后的偏好。为了评估FEDPOIREC,我们使用两个推荐模型将我们的方法应用于五个现实世界数据集。广泛的实验表明,FEDPOIREC以集中方法实现了相当的推荐质量,而社会集成协议会突出用户侧的低计算和通信开销。
translated by 谷歌翻译
核毒素和eosin染色组织学图像中的核分段,分类和定量使得能够提取可解释的细胞基特征,该特征可用于计算病理(CPATH)中的下游可解释模型。然而,对不同核的自动识别面临着主要的挑战,因为有几种不同类型的核,其中一些呈现出大的内部变异性。为了帮助推动CPATH中自动核认可的前进研究和创新,我们组织了结肠核识别和计数(圆锥)挑战。挑战鼓励研究人员开发在CPATH中,在CPATH中,在CPATH中进行当前最大已知的公知的核级数据集进行分割,分类和计数,其中包含大约一半的标记的核。因此,锥形挑战利用核数量超过10倍的核,作为核识别的前一大挑战数据集。如果我们希望在临床环境中部署它们,则对输入变体具有强大的算法很重要。因此,作为这一挑战的一部分,我们还将测试每个提交算法对某些输入变化的敏感性。
translated by 谷歌翻译
在这项工作中,我们考虑欺骗性的欺骗性的集合愚人节(AFD)新闻文章作为欺骗检测任务的现有数据集中的有用添加。这些系列具有既定的基础事实,跨语言构建相对容易。因此,我们介绍了一个包含来自希腊报纸和新闻网站的历时的AFD和正常文章的语料库。最重要的是,我们建立了丰富的语言功能集,并与目前可用的唯一AFD系列进行了分析,并比较其欺骗性提示,这是英文。在目前的研究线程之后,我们还讨论了对这两个数据集的欺骗中的个人主义/集体主义维度。最后,我们通过测试各种单声道和Crosslingual设置来构建分类器。结果展示了AFD数据集可以有助于欺骗检测研究,并且与其他欺骗性检测工作的观察结果进行对齐。
translated by 谷歌翻译
手工姿势和形状估计研究领域的数据集和工具的数量和质量作为所做的重大进展的证据。然而,即使是迄今为止报告的最高质量的数据集,也具有注释的缺点。我们提出了一种基于可分辨率的射线跟踪的细化方法,并演示了如何具有高质量的公共可用的,双摄像机数据集(Interwand2.6m)可以成为一个更好的数据集,相对于注释质量。到目前为止,迄今未采用可分辨率的射线跟踪,特此被证明优于过去已经采用的近似替代品。为了解决缺乏可靠的地面真理,就量化评估而言,我们求助于现实的合成数据,表明我们诱导的改进确实很重要。通过视觉评估,实际数据中的实际数据也是如此。
translated by 谷歌翻译